Recent years have witnessed significant growth of face alignment. Though dense facial landmark is highly demanded in various scenarios, e.g., cosmetic medicine and facial beautification, most works only consider sparse face alignment. To address this problem, we present a framework that can enrich landmark density by existing sparse landmark datasets, e.g., 300W with 68 points and WFLW with 98 points. Firstly, we observe that the local patches along each semantic contour are highly similar in appearance. Then, we propose a weakly-supervised idea of learning the refinement ability on original sparse landmarks and adapting this ability to enriched dense landmarks. Meanwhile, several operators are devised and organized together to implement the idea. Finally, the trained model is applied as a plug-and-play module to the existing face alignment networks. To evaluate our method, we manually label the dense landmarks on 300W testset. Our method yields state-of-the-art accuracy not only in newly-constructed dense 300W testset but also in the original sparse 300W and WFLW testsets without additional cost.
translated by 谷歌翻译
Recent deep learning methods have achieved promising results in image shadow removal. However, their restored images still suffer from unsatisfactory boundary artifacts, due to the lack of degradation prior embedding and the deficiency in modeling capacity. Our work addresses these issues by proposing a unified diffusion framework that integrates both the image and degradation priors for highly effective shadow removal. In detail, we first propose a shadow degradation model, which inspires us to build a novel unrolling diffusion model, dubbed ShandowDiffusion. It remarkably improves the model's capacity in shadow removal via progressively refining the desired output with both degradation prior and diffusive generative prior, which by nature can serve as a new strong baseline for image restoration. Furthermore, ShadowDiffusion progressively refines the estimated shadow mask as an auxiliary task of the diffusion generator, which leads to more accurate and robust shadow-free image generation. We conduct extensive experiments on three popular public datasets, including ISTD, ISTD+, and SRD, to validate our method's effectiveness. Compared to the state-of-the-art methods, our model achieves a significant improvement in terms of PSNR, increasing from 31.69dB to 34.73dB over SRD dataset.
translated by 谷歌翻译
在本文中,我们描述了一种数据驱动的方法,用于开发艾米丽(Emily),一种情绪感染的开放域聊天机器人。提出的数据增强方法可以从多转话对话中明确模拟阳性过渡(PT)情感数据。我们使用PT情感数据构建对话语料库,并将其发布供公众使用。通过使用生产的PT增强对话进行验证的对话模型,我们能够开发一种情感感染性的开放式聊天机器人,该聊天机器人在各种情绪影响度指标中表现出几乎人类的表现。我们对艾米丽(Emily)进行评估,以针对一些最先进的(SOTA)开放域聊天机器人,并显示拟议方法的有效性。
translated by 谷歌翻译
零拍学习(ZSL)旨在通过利用所见类和看不见的类之间共享的语义描述来识别看不见的类。当前的方法表明,通过将语义嵌入将视觉空间投射到视觉空间中是类原型,从而有效地学习视觉语义对齐是有效的。但是,这样的投影函数仅与可见的类有关。当应用于看不见的类时,原型通常由于域移位而次优。在本文中,我们建议通过称为LPL的占位符学习原型,以消除看到和看不见的阶级之间的域转移。具体来说,我们将看到的课程结合在一起,以使新课程成为视觉和语义空间中看不见的班级的占位符。占位持有人放置在看到的班级之间,鼓励人们高度分散所见类的原型。插入良好的看不见的空间也可以保留更多的空间。从经验上讲,分离良好的原型有助于抵消由域转移引起的视觉声音错位。此外,我们利用一种新颖的面向语义的微调来保证占位符的语义可靠性。在五个基准数据集上进行的广泛实验证明了LPL在最新方法上的显着性能提高。代码可在https://github.com/zaiquanyang/lpl上找到。
translated by 谷歌翻译
面部聚类是使用大型未标记的面部图像扩展面部识别系统的一种有希望的方法。识别我们称之为硬群的小或稀疏的面部图像簇仍然具有挑战性,这是由簇的异质性,\ ie,大小和稀疏性的高变化引起的。因此,使用均匀阈值(识别簇)的常规方式通常会导致对应该属于硬群的样品的可怕分类。我们通过利用样品的邻居信息并以概率方式推断(样本的)群集成员来解决这个问题。我们介绍了两个新型模块,分别是基于邻域扩散的密度(NDDE)和基于过渡概率的距离(TPDI),我们可以简单地将标准密度峰值聚类算法应用于均匀的阈值。我们对多个基准测试的实验表明,每个模块都会有助于我们方法的最终性能,并通过将其纳入其他高级面部聚类方法中,这两个模块可以将这些方法的性能提高到新的最先进。代码可在以下网址获得:https://github.com/echoanran/on-mitigating-hard-clusters。
translated by 谷歌翻译
如今,无线通信正在迅速重塑整个行业。特别是,移动边缘计算(MEC)是一种用于工业互联网(IIOT)的促成技术,它使强大的计算/存储基础架构更靠近移动终端,从而大大降低了响应延迟。为了获得在网络边缘积极缓存的好处,对最终设备之间的受欢迎程度的精确知识至关重要。但是,在许多IIOT场景中,内容流行的内容流行以及数据私人关系的复杂性质对其获取构成了艰巨的挑战。在本文中,我们建议针对MEC启用的IIOT提供无监督和保护隐私的普及预测框架。引入了本地和全球流行的概念,并将每个用户的随时间变化为无模型的马尔可夫链。在此基础上,提出了一种新颖的无监督的复发性联合学习(URFL)算法,以预测分布式的流行,同时实现隐私保护和无监督的培训。仿真表明,提出的框架可以根据降低的根平方误差提高预测准确性,高达$ 60.5 \%-68.7 \%$。此外,避免了手动标签和违反用户数据隐私的行为。
translated by 谷歌翻译
印尼语是一种凝结的语言,因为它具有复杂的单词形成过程。因此,该语言的翻译模型需要一种甚至低于单词级别的机制,称为子字级别。自词汇量爆炸以来,这种复合过程导致了一个罕见的单词问题。我们提出了一种解决神经机器翻译(NMT)系统的唯一单词问题的策略,该系统将印度尼西亚语用作一对语言。我们的方法使用基于规则的方法将单词转换为其根部并伴随词缀以保留其含义和上下文。使用基于规则的算法具有更多优势:它不需要语料库数据,而仅应用标准的印尼规则。我们的实验证实了这种方法是实用的。它将词汇的数量大大减少到57%,在英语到印度尼西亚翻译上,此策略在不使用此技术的类似NMT系统上提供了多达5个BLEU点的改进。
translated by 谷歌翻译
Twitter包含来自现实世界中的大量语言数据。我们检查了Twitter的低资源语言(例如本地印尼语)的用户生成的内容。为了使NLP在印尼语中工作,它必须考虑本地方言,地理环境和区域文化影响印尼语言。本文确定了我们在构建本地印尼NLP数据集时面临的问题。此外,我们正在开发一个用于创建,收集和分类NLP本地印尼数据集的框架。使用Twitter的地理位置工具自动注释。
translated by 谷歌翻译
在谈话中的情感认可(ERC)近年来引起了很多关注,以实现广泛应用的必要性。现有的ERC方法主要是单独模拟自我和讲话者上下文,在缺乏它们之间缺乏足够的互动的主要问题。在本文中,我们提出了一种用于ERC(S + Page)的新型扬声器和位置感知图形神经网络模型,其中包含三个阶段,以结合变压器和关系图卷积网络(R-GCN)的优势以获得更好的上下文建模。首先,提出了一种双流的会话变压器以提取每个话语的粗略自我和扬声器上下文特征。然后,构造扬声器和位置感知会话图,并且我们提出了一种称为PAG的增强型R-GCN模型,以优化由相对位置编码引导的粗略特征。最后,从前两个阶段的两个特征都被输入到条件随机场层中以模拟情绪转移。
translated by 谷歌翻译
移动边缘计算(MEC)是一个突出的计算范例,它扩展了无线通信的应用领域。由于用户设备和MEC服务器的能力的限制,边缘缓存(EC)优化对于有效利用启用MEC的无线网络中的高速利用。然而,内容普及空间和时间的动态和复杂性以及用户的隐私保护对EC优化构成了重大挑战。在本文中,提出了一种隐私保留的分布式深度确定性政策梯度(P2D3PG)算法,以最大化MEC网络中设备的高速缓存命中率。具体而言,我们认为内容流行度是动态,复杂和不可观察的事实,并制定了在隐私保存的限制下作为分布式问题的设备的高速缓存命中速率的最大化。特别是,我们将分布式优化转换为分布式的无模型马尔可夫决策过程问题,然后介绍一种隐私保留的联合学习方法,用于普及预测。随后,基于分布式增强学学习开发了P2D3PG算法以解决分布式问题。仿真结果表明,在保护用户隐私的同时通过基线方法提高EC击中率的提出方法的优越性。
translated by 谷歌翻译